#NVLink Fusion
【Computex】談談NV在ComputeX
老黃開始花了大量的時間闡述AI Factory以及從CHIP->System->DC->Infra的演進..1. NVLink Fusion可能最受關注的還是NVLink Fusion... 在AI Factory內支援定製化的ASIC?參與的廠家有好幾個, 聯發科本來就有合作做了GB10, 而Fujitsu則是A64FX超算的下一代CPU有需求. Qualcomm本來就是要回歸伺服器CPU市場. Alchip(世芯)/Marvell則是有一些ASIC定製的業務..而AsteraLabs則是PCIe/CXL/UAL/NVLink,反正能搞的都搞....其實, 仔細想想似乎這事還挺難弄的. 定製化的ASIC要接入CUDA生態, 然後Blackwell這些卡軟體/記憶體訪問上要和ASIC互通... 咋搞? 而CPU接入似乎會更加麻煩...另一個問題是, 有什麼業務場景需要NV的GPU混合接一堆ASIC, CUDA生態上如何建構一些DSL, 互動的記憶體介面/軟體生態是什麼樣的?如果退而求其次, 採用NVLink建構非NV GPU/CPU的互聯系統,  那麼相當於賣一個NVL72的交換機框, 對比DGX-B200這類的8卡平台, NVL72的定價增益如何? 或者說這些基於NVL72的交換機框本質上是用來攤銷GB200-NVL72成本用的? 然後再進一步, 其它的ASIC是否真的需要這樣的互聯?  所以互動上一定是一個記憶體介面, 該怎麼設計呢? 反正我有答案就是不說... 就簡單的想吃一下瓜看看 NV和BRCM在這個市場競爭一下...其實, 我腦子裡想到的是Cisco大概也在網際網路泡沫的頂峰, 在核心路由器產品線(GSR)和一些交換機產品線(6500)上也是搞同樣的事情. 當時Cisco也有很大頻寬的交換網路, 類似於NVL72這樣的機櫃, 可以有多個插槽插各種Linecard.. 當時也衍生出了一堆各種各樣的Service Blade, 例如ACE/SAMI/Roddick這一堆東西...如下圖是一個做Wireless的SAMI卡(Service and Application Module)...裡面堆了一堆處理器...個人感覺最大的可能性還是掛一些記憶體上去, 例如Samsung/Micron這些廠商來做一些記憶體擴展是可行的.. 然後另一個場景是NV自己或者Asterlabs搞一些NVLINK-PCIe/CXL的橋接晶片啥的慢慢去蠶食PCIe的一些生態...舉個例子吧, 如果我在國外的大廠, 大機率會把下圖這事實現了..趁著NV自己部門牆邊界的約束下...但是在國內, 由於中美關係的不確定性, 很大程度上不會去考慮NVLink這樣的方案. 特別是國內的GPU廠商來看...2. NV的企業網佈局當AI Factory的故事過度依賴於CSP時, 作為一個做過Marketing的人, 賣基礎設施裝置的廠商總歸會盯著企業私有雲的生意去做, 而這次老黃談到的內容都涉及到這幾個方面, 一個統一的架構覆蓋各個價格段的場景.雖然老黃在極力的推薦DGX Spark(GB10)的小盒子, 但是我個人並不太看好這個生意. 而更多的關注於DGX Station的場景. Spark不是說不好, 只是在那個價格段, 有什麼場景需要桌面放一個小盒子. 而云上可以按需使用租到算力更好的平台了. 而DGX Station則是一個比較適合雲上租賃模式的產品, 提供足夠的彈性部署的能力.談到企業網部署, 這次詳細展示的RTX Pro Server倒是一個很不錯的選擇. 單個機框8張RTX 6000Pro然後比較巧妙的用了4個CX8構成的主機板, 提供3.2Tbps(8x400GE)的ScaleOut頻寬.RTX 6000Pro的規格如下, 比5090強10%以上整體的性能看上去也比H100強了不少, 不過老黃這圖的資料好像有點問題, ISL=128K/OSL 4K, 實際上遠超了實際的workload....按照DeepSeek ISL=4K,OSL=1K模擬的結果如下, 大概每卡可以做到3000 Tokens/s, 並沒有圖上H100 4倍的性能差異.當然還有一個不得不提的問題, DeepEP在這樣的部署下, 如何搞呢? CX8 RoCE的部署下, 沒有了NVLink就沒有了PXN, 多平面/多軌道的部署要怎麼處理呢?  所以我一直堅持的一個觀點是, 在網路這個領域, 除非是完全沒有其它辦法解決了, 千萬不要動拓撲... 一時的收益可能帶來後續很多麻煩... 所以面對什麼Hash衝突擁塞控制多路徑負載平衡的問題,還是要乾乾淨淨的去直接面對問題...不過總體來看, 老黃有一個故事挺打動人的, 就是下面這個圖. 突然覺得有點像帶AI的Oracle Exdata那樣的櫃子了...其實在這個圖上已經顯示出了存算分離的架構, 感覺這個機型就非常適合CSP部署提供租賃和彈性分時多工的邏輯了...3. NV的營運商佈局似乎老黃還在很賣力的推銷6G AI-RAN的場景... 5G很多營運商投資回報率都還偏低的情況下, 6G要多久才能成熟呢?(梓豪談芯)
【Computex】首次鬆口,輝達NVLink Fusion將支援第三方晶片!
在本屆Computex 2025上,黃仁勳再次語出驚人:宣稱新發佈的NVLink Fusion技術中的單一“主幹”(spine)每秒傳輸資料量“超過整個網際網路”。雖然這類噱頭大家見得多了,但NVLink Fusion的背後確實有不容忽視的硬核技術。頻寬達130TB/s,號稱能超越“整個網際網路”在現場演示中,黃仁勳親自展示了NVLink Fusion系統中的核心元件——NVLink主幹(spine)。這個模組像一座由電纜和控製器組成的“資料塔”,用於連接多達72個GPU,實現高速資料共享與互動。黃仁勳表示,這一單一主幹的資料傳輸速率可達130TB/s(字節/秒),而當前全球網際網路總資料吞吐量為900 Tb/s(位/秒),換算後約為112.5 TB/s,意味著NVLink Fusion的主幹理論上快了16%左右。雖然該對比受到部分質疑(有人說網際網路峰值可達1200 Tb/s以上),但無論如何,130 TB/s 的頻寬已遠超當前多數高性能系統的通訊能力,展現了NVLink技術在AI超算領域的優勢地位。和以往不同,NVLink Fusion支援第三方晶片廠商除了驚人的傳輸性能,NVLink Fusion的另一大亮點是其相容性突破。黃仁勳強調,該技術不再侷限於輝達自家晶片平台,未來將支援來自高通、富士通,甚至可能包括AMD和Intel的“半定製”處理器。這為異構計算架構提供了前所未有的靈活性。開放高端互聯技術來推動更廣泛的合作和 AI計算生態建設。一般個人使用者就洗洗睡吧,PCIe仍將主導桌面平台儘管NVLink Fusion引發了廣泛關注,但黃仁勳也坦言,這項技術不會出現在消費級PC中。當前桌面平台仍以PCIe介面為主流CPU-GPU互聯標準,而NVLink Fusion更適用於AI資料中心、科研計算與大型模型訓練叢集。 (科技巴圖魯)